检索结果

Select

1. 基于联合学习的少样本多类别情感分类方法

李子成, 常晓琴, 李雅梦, 李寿山, 周国栋

北京大学学报自然科学版 2023, 59 (1): 57-64. DOI: 10.13209/j.0479-8023.2022.068

摘要（284）

HTML

PDF（pc）（788KB）（130）

对于多类别的细粒度情感分类任务, 目前主流的少样本学习方法不能取得较好的性能。针对这一问题, 提出一种基于联合学习的少样本多类别情感分类方法。采用基于替换词检测任务的少样本学习方式, 将回归和分类的替换词检测模板以及标签描述词同时添加至输入语句, 从而将细粒度情感分类任务同时建模为分类问题和回归问题。在此基础上, 设计了不同的融合方法进行联合学习。实验结果表明, 与主流少样本学习方法相比, 该方法在 F1-Score 和正确率上都取得更优的结果。

相关文章 | 多维度评价 | 评论（0）

Select

2. 篇章约束的译文质量评估模型

冯勤, 贡正仙, 叶恒, 周国栋

北京大学学报自然科学版 2023, 59 (1): 39-47. DOI: 10.13209/j.0479-8023.2022.067

摘要（275）

HTML

PDF（pc）（941KB）（68）

提出一种新的篇章约束辅助的译文质量评估模型, 不依赖参考译文, 为源文篇章中的每条句子的译文进行打分。首先从句子级别的语义表示和词级别的指代特征的角度建模源文和译文上下文之间的差异, 然后设计额外的损失函数, 使得模型在预测分数的同时, 尽可能地约束两者之间的差异。实验结果表明, 所提方法能有效提高译文质量评估的性能, 在Pearson相关系数上较基线系统最高可提升6.68个百分点。

相关文章 | 多维度评价 | 评论（0）

Select

3. 基于情感信息辅助的多模态情绪识别

吴良庆, 刘启元, 张栋, 王建成, 李寿山, 周国栋

北京大学学报自然科学版 2020, 56 (1): 75-81. DOI: 10.13209/j.0479-8023.2019.105

摘要（1627）

HTML

PDF（pc）（1064KB）（239）

不同于纯文本的情绪分析, 本文面向多模态数据(文本和语音)进行情绪识别研究。为了同时考虑多模态数据特征, 提出一种新颖的联合学习框架, 将多模态情绪分类作为主任务, 多模态情感分类作为辅助任务, 通过情感信息来辅助提升情绪识别任务的性能。首先, 通过私有网络层对主任务中的文本和语音模态信息分别进行编码, 以学习单个模态内部的情绪独立特征表示。接着, 通过辅助任务中的共享网络层来获取主任务的辅助情绪表示以及辅助任务的单模态完整情感表示。在得到主任务的文本和语音辅助情绪表示之后, 分别与主任务中的单模态独立特征表示相结合, 得到主任务中单模态情绪信息的完整表示。最后, 通过自注意力机制捕捉每个任务上的多模态交互特征, 得到最终的多模态情绪表示和情感表示。实验结果表明, 本文方法在多模态情感分析数据集上可以通过情感辅助信息大幅度地提升情绪分类任务的性能, 同时情感分类任务的性能也得到一定程度的提升。

相关文章 | 多维度评价 | 评论（0）

Select

4. 中文篇章零元素语料库构建

盛晨, 孔芳, 周国栋

北京大学学报自然科学版 2019, 55 (1): 15-21. DOI: 10.13209/j.0479-8023.2018.057

摘要（828）

HTML

PDF（pc）（672KB）（267）

针对中文零指代问题, 从篇章视角进行理论分析, 并完成中文篇章零元素语料库(Chinese Discourse Zero Corpus, CDZC)的构建工作。首先, 整理和分析已有的理论研究以及语料资源, 探究篇章层面中文零元素语料库标注的必要性。然后, 采用自底向上、前向搜索的标注策略和人机结合的半自动标注方式, 完成CDZC语料库的构建。最后, 对该语料库进行一系列详细的统计分析。结果表明, CDZC能够充分反映出中文零元素省略的语言特点, 为相关研究提供语料资源支持。

相关文章 | 多维度评价 | 评论（0）

Select

5. 基于中英文可比较语料的中文零指代消解

杨紫怡, 贡正仙, 孔芳, 周国栋

北京大学学报自然科学版 2017, 53 (2): 279-286. DOI: 10.13209/j.0479-8023.2017.038

摘要（1002）

HTML （20）

PDF（pc）（350KB）（295）

针对中文篇章中的零指代问题, 提出一种基于中英文可比较语料进行中文零指代识别和消解的方法, 并提出英文对等句的概念。利用对等句, 重新定义句子间隔, 并引入双语词对齐特征。在基准平台基础上, 从零指代项识别和零指代项消解两个方面进行研究。在 OntoNotes5.0 语料上的实验结果表明, 与目前性能最好的系统相比, 新提出的基于中英对等语料的中文零指代方法取得更好的性能。

图表 | 参考文献 | 相关文章 | 多维度评价 | 评论（0）

Select

6. 中文文本中评价对象省略识别方法

朱珠,汪蓉,李寿山,周国栋

北京大学学报（自然科学版）

摘要（846）

PDF（pc）（404KB）（381）

为了研究中文情感文本中评价对象省略现象的识别方法, 将评价对象省略识别建模为一个二元分类问题, 利用机器学习算法进行自动学习。探讨当前句位置无关特征、当前句位置相关特征和上下文相关特征对评价对象省略识别的作用。3个不同领域的实验结果表明, 新提出的基于机器学习的评价对象省略识别方法能够获得较好的识别效果。

相关文章 | 多维度评价 | 评论（0）

Select

7. 汉语篇章连接词识别与分类

李艳翠,孙静,周国栋

北京大学学报（自然科学版）

摘要（1202）

PDF（pc）（621KB）（943）

基于自建的汉语篇章结构语料库以及语料库中连接词和连接词关系类别的标注, 抽取自动句法树和标准句法树的句法、词法和位置特征, 利用有监督的方法进行连接词识别和分类。实验结果表明, 连接词识别的F1值为69.2%, 连接词自动识别并分类的总正确率为89.1%。

相关文章 | 多维度评价 | 评论（0）

Select

8. 基于清华汉语树库的复句关系词识别与分类研究

李艳翠,孙静,周国栋,冯文贺

北京大学学报（自然科学版）

摘要（739）

PDF（pc）（426KB）（460）

根据清华汉语树库的标注方法, 利用规则从中提取复句关系词并标注其类别, 然后分别抽取带功能标记和不带功能标记的自动句法树的句法、词法、位置特征, 进行复句关系词的识别和分类。实验结果表明, 复句关系词判断准确率达95.7%, 复句关系词类别判断F1值为77.2%。

相关文章 | 多维度评价 | 评论（0）

Select

9. 汉语隐式篇章关系识别

孙静,李艳翠,周国栋,冯文贺

北京大学学报（自然科学版）

摘要（785）

PDF（pc）（532KB）（728）

采用一个自建的汉语篇章结构语料库(隐式关系占80%)进行隐式关系识别。语料中将篇章关系分成3个层次, 第一层包含因果、并列、转折、解说四大类。在此语料上, 利用上下文特征、词汇特征、依存树特征, 采用最大熵的分类方法对四大类关系进行识别。实验结果显示, 总正确率为62.15%, 其中并列类识别效果最好, F1值达到75.26%。

相关文章 | 多维度评价 | 评论（0）

Select

10. 基于Deep Learning的代词指代消解

奚雪峰,周国栋

北京大学学报（自然科学版）

摘要（855）

PDF（pc）（589KB）（486）

针对指代消解一直是自然语言处理中的核心问题, 提出一种利用DBN (deep belief nets)模型的Deep Learning 学习机制进行基于语义特征的指代消解方法。DBN模型由多层无监督的RBM (restricted Boltzmann machine)网络和一层有监督的BP (back-propagation)网络组成, RBM网络确保特征向量映射达到最优, 最后一层 BP 网络可以对RBM网络的输出特征向量进行分类, 从而训练指代消解分类器。在 ACE04 英文语料及ACE05中文语料上进行测试, 实验结果表明, 增加RBM训练层数可以提高系统性能。此外, 引入对特征集合的抽象分层因素, 也对系统性能的提升产生积极作用。

相关文章 | 多维度评价 | 评论（0）

Select

11. 基于逗号的汉语子句识别研究

李艳翠,冯文贺,周国栋,朱坤华

北京大学学报（自然科学版）

摘要（748）

PDF（pc）（462KB）（541）

根据篇章分析的任务和实践, 结合传统研究, 提出汉语的基本篇章单位为子句, 并从结构、功能、形式等方面给出其定义。分析了逗号与子句的关系, 并在标注语料上进行了基于逗号的汉语子句识别研究。首先手工标注了CTB6.0中前100篇文档的逗号是否为子句边界的信息, 在标注结果中抽取句法、词汇、长度等特征进行实验, 子句识别准确率为90%。然后利用信息增益选出贡献最大的9个特征, 使用它们也可获得较高的子句识别准确率。最后仅使用词法信息, 子句识别准确率可达84.5%。实验证明子句的定义合理, 基于逗号的子句识别在理论上和实验上均可行。

相关文章 | 多维度评价 | 评论（0）